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摘 要 心理 学 研究 中 , 不 恰当 


的 模型 参数 估计 框架 或 


SIRT” EY 


部 哲学 社会 科学 实验 室 ( 华 南 师 范 大 学 ); “华南 师范 大 学 心理 学 院 , 广州 510631) 


响 模 型 参数 点 估计 的 可 靠 性 ,进而 影响 到 


研究 结论 的 可 靠 性 。 本 研究 提出 了 基于 MLE-EM 的 CDM 模型 参数 估计 新 框架 ,以 及 新 收敛 判断 方法 。 通 过 模拟 
研究 与 实证 数据 分 析 的 方式 , 探索 了 新 参数 估计 框架 和 新 收敛 判断 方法 的 表现 , 并 与 已 有 模型 参数 估计 框架 及 收 


伍 判 断 方法 进行 了 比较 。 结 果 显 示 ， 新 的 模型 参数 估计 


SEN, 能 有 效 提高 模型 参数 点 估计 的 可 靠 性 。 
Kei Beit, AMAT, 收敛 准则 , 认 知 诊断 模型 
分 类 号 B841 


1 引言 


自然 科学 及 社会 科学 各 个 领域 中 , 研究 结论 的 
可 靠 性 (研究 结论 可 以 被 信赖 的 程度 )， 尤其 是 研究 
结果 的 可 重复 性 (replication) 受 到 极 大 关注 (参见 : 
THEME 等 , 2016; Begley & Ellis, 2012; Ioannidis, 
2005, 2008; Tajika et al., 2015), Nature 杂志 对 此 进 
行 了 一 项 调查 , 发 现 70% 以 上 的 研究 者 无 法 重复 他 
人 实验 ,50% 以 上 的 研究 者 无 法 重复 他 们 自己 的 实 
验 (Baker 2016)。 心 理学 领域 中 ， 研 究 者 对 可 重复 
性 问题 出 现 的 比例 、 可 能 的 原因 展开 了 探讨 ， 并 从 
统计 方法 和 研究 实践 两 方面 提出 了 解决 方案 (例如 ， 
可 参考 《心理 学 报 》 的 投稿 指南 及 论文 自 检 报告 或 
American Psychological Association, 2020 等 )。 

心理 学 研究 中 , FE EY AY BS BH IB BIN 
的 外 显 行为 (或 观察 数据 ) 与 其 潜在 特质 之 间 的 关 
系 。 研 究 者 在 使 用 心理 计量 模型 拟 合 数据 时 , 倾向 


于 将 计量 模型 及 参数 估计 软件 作为 一 个 “黑箱 ”使 


用 ,很 少 关注 模型 参数 估计 值 是 否 可靠 。 举例 而 言 ， 
极 大 似 然 法 是 当前 应 用 最 广泛 的 模型 参数 估计 方 
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E 架 及 收敛 准则 的 表现 优 于 


已 有 的 模型 参数 估计 框架 及 收 


法 之 一 , 极 大 似 然 法 中 仅 存 在 全 局 最 优 解 的 一 个 前 
提 是 似 然 函 数 是 凸 函数 。 然 而 ,实践 中 这 个 假设 有 
可 能 不 成 立 , 使 得 模型 参数 存在 两 个 及 以 上 的 局 部 
最 优 解 。 使 用 同一 个 模型 分 析 相 同 数据 时 ,不同 初 
始 值 可 能 会 导致 模型 参数 收敛 于 不 同 的 局 部 最 优 
解 。 根 据 极 大 似 然 法 原理 , 似 然 函数 值 不 同 , 说 明 产 
生 了 不 同 的 模型 参数 估计 值 ; 似 然 函 数值 之 间 的 差 
异 越 大 , 说 明 模型 参数 局 部 最 优 解 之 间 的 差异 越 大 。 
例如 ,假设 y 是 模型 中 任意 一 个 参数 ， 如 果 第 一 次 
的 点 估计 值 与 第 二 次 的 点 估计 值 的 差 7 中 -7 不 
近似 为 0, 说 明 在 这 两 次 估计 中 模型 参数 y 的 估计 
值 及 95% CI 不同 。 

模型 参数 点 估计 的 可 靠 性 是 研究 结论 可 靠 性 
的 基础 。 因此 ， 如 何 提高 模型 参数 估计 值 的 可 靠 性 ， 
进而 提高 研究 结果 的 可 重复 性 是 本 文 将 要 探讨 的 
主要 问题 。 

认 知 诊断 (或 者 是 诊断 分 类 ) 使 用 心理 计量 模型 
推断 被 试 可 观察 的 外 显 行 为 与 其 潜在 的 多 维 、 细 粒 
度 的 心理 特质 (如 心理 结构 、 技 能 、 加 工 过 程 或 策 
略 等 ， 统 称 为 属性 ) 之 间 的 关系 (Rupp et al., 2010). 
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认 知 诊断 模型 (cognitive diagnostic model, CDM) 在 
心理 、 教 育 、 社 会 、 生 物 以 及 其 他 多 个 领域 中 得 到 
了 越 来 越 多 的 关注 (Sorrel et al., 2016; Wu et al., 
2017)。 因 此 , XA CDM 为 例 , 探讨 模型 参数 点 
估计 的 可 靠 性 问题 。 

目前 , 极 大 似 然 期 望 最 大 化 算法 (maximum 
likelihood estimation using the expectation maximization 
algorithm，MLE-EM) 是 应 用 最 广泛 的 CDM 模型 参 
数 估计 方法 之 一 (de la Torre, 2009, 2011; von 
Davier, 2008)。 例 如 ,在 R 语言 中 的 CDM (George 
et al., 2016)、GDINA (Ma & de la Torre, 2020) 软 件 
包 以 及 flexMIRT, Latent GOLD, mdltm、 Mplus (Sen 
& Terz, 2020; Templin & Hoffman, 2013) 等 软件 中 
均 可 使 用 MLE-EM 估计 CDM 的 模型 参数 ,理想 条 
件 下 , 使 用 MLE-EM 方法 能 够 获得 具有 渐 近 性 、 一 
致 性 等 优良 特性 的 点 估计 值 。 但 是 ， 研 究 者 指出 使 
用 MLE-EM 算法 估计 CDM 模型 参数 时 ， 可 能 会 遇 
到 的 问题 有 : RABBI. WA BBO EL 
( 较 差 的 ) 局 部 最 优 解 以 及 边界 值 等 (DeCarlo，2011， 
2019; Ma & Guo, 2019; Ma & Jiang, 2021; Philipp 
et al., 2018; Templin & Bradshaw, 2014; Zeng et al., 
2023).MLE-EM 估计 的 一 般 过 程 是 ,给 定 模 型 参数 
初始 值 ， 迭代 进行 了 步 (期 望 步 ) 和 M 步 (最 大 化 步 )， 
满足 特定 的 收敛 准则 (convergence criterion 或 
termination criterion) 后 停止 迭代 ,输出 模型 参数 的 
点 估计 值 。 因此 ,可 以 从 参数 估计 框架 (包括 模型 参 
数 初始 值 设置 、EM 过 程 等 ) 及 收敛 准则 等 方面 着 手 
解决 模型 参数 点 估计 可 靠 性 问题 。 

本 文 将 在 第 2 部 分 阐述 CDM 模型 参数 估计 中 
模型 参数 估计 框架 及 收敛 准则 存在 的 问题 ,以 及 这 
两 个 问题 对 于 参数 估计 可 靠 性 的 影响 ; 在 第 3 部 分 
详细 说 明 新 提出 的 模型 参数 估计 框架 及 收敛 准则 ， 
并 在 第 4 部 分 通过 模拟 研究 比较 新 方法 与 已 有 方法 
在 模型 参数 估计 可 靠 性 方面 的 表现 ; 第 5 部 分 是 实 
证 数据 分 析 ， 目 的 是 检验 新 提出 的 模型 参数 估计 框 
架 及 收敛 准则 在 估计 CDM 模型 参数 时 的 表现 ， 并 
与 GDINA 软件 包 的 表现 进行 比较 ; 最 后 是 讨论 与 
展望 。 

2 CDM 及 其 模型 参数 估计 中 存在 

的 问题 

在 这 一 部 分 , 将 首先 介绍 饱和 CDM 及 属性 层 


级 CDM(hierarchical cognitive diagnostic model, 
HCDM); 9 Jeg DA He Jy Sik nh E ER Ad i HH P TE 


在 的 不 收敛 、 项 目 参 数 极端 值 、( 较 差 的 ) 局 部 最 优 
解 以 及 边界 值 等 问题 。 
2.1 饱和 CDM 及 HCDM 

为 表达 便利 , 设 在 一 个 认 知 诊断 测验 中 有 NN 个 
被 试 , K 个 属性 , J 个 项 目 , 有 旦 属性 与 项 目 均 为 0-1 
计 分 。 令 矩阵 = {yw}”” 表示 被 试 在 测验 项 目 上 的 
观察 作 管 反应 ，y,j =1 表 示 被 试 n 正确 作答 项 目 j, 
yn =0 表示 错误 作答 。 和 矩阵 OQ={qn}” 表示 属性 
与 测验 项 目的 对 应 关系 ，qjk =1 表示 项 目 j 测量 了 
属性 k, qp =0 则 表示 没有 测量 。 和 矩阵 a = {a} 
表示 所 有 可 能 的 属性 掌握 模式 ，aj =1 表 示 有 具有 第 
1 种 属性 掌握 模式 的 被 试 掌 握 了 属性 太 .wx = 0 表示 
没有 和 擎 握 , 工 表示 所 有 可 能 的 属性 掌握 模式 的 数量 。 
参考 以 往 人 研究 的 表述 ( 田 伟 等 , 2014; Dempster et al., 
1977), 将 被 试 的 项 目 反 应 矩阵 y 称 为 不 完整 数据 
(“incomplete” data), 将 项 目 反 应 和 矩阵 及 被 试 的 属性 
掌握 模式 组 合 而 成 的 矩阵 称 为 完整 数据 (complete” 
data)。 即 完整 数据 矩阵 x， 可 以 表示 为 ， 


Xl Yı a 
X=| Xn |5| Yn Qn (1) 
Xy Yn CN 


CDM 的 结构 模型 定义 了 被 试 总 体 中 所 有 可 能 

的 属性 掌握 模式 a 的 分 布 比例 。 令 n(m smm) 
L-1 

表示 结构 参数 向 量 且 xy =1- >》 万 ;有 表示 第 1 种 属 
l=] 
性 掌握 模式 w = (apap ak) 在 被 试 总 体 中 
的 分 布 比例 , 符号 “T” 表 示 转 置 。 饱和 CDM 的 结构 
模型 中 工 = 2* 。CDM 的 项 目 反 应 模型 表示 的 是 具 
有 第 1 种 属性 掌握 模式 w 的 被 试 n 在 测验 项 目 j 上 
的 正确 作答 概率 。 饱 和 CDM 项 目 正确 作答 的 条 件 
概率 可 以 表示 为 ， 

Py = Py =] 0,9;)= hjo+ 


K K 
> bona Ay Kak) | [oud (2) 
k=l k=l 


公式 (2) 中 qj = (qjq joq jr) 表示 项 目 jE Q 
矩阵 中 所 对 应 的 向 量 ; 在 项 目 j 中 0 表示 截 
EH, Apia 表示 对 应 于 属性 k 的 主 效应 项 、 
Ajka o 则 表示 最 高 阶 交互 效应 项 。 项 目 参 数 向 
E A 及 结构 参数 向 量 构成 了 模型 参数 = (47,0) 。 
饱和 CDM 与 HCDM 的 区 别 在 于 结构 模型 和 项 
目 反 应 模型 的 定义 不 同 , HCDM EFM CDM 
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中 。 为 详细 说 明 这 两 者 之 间 的 关系 ， 现 举例 说 明 。 
假设 一 个 测验 中 天 = 2,g) =)", 被 试 n 的 属性 掌 
握 模 式 为 w =(1)'; 且 掌 握 第 一 个 属性 (& ) 是 掌 
握 第 二 个 属性 的 前 提 (w; )。 那 么 , 在 饱和 CDM 中 ， 
所 有 可 能 的 属性 掌握 模式 可 以 表示 为 ， 


a, 0 0 
al 1 0 
=| 1 |= (3) 
a3 0 1 
al 1 1 


即 包 和 CDM 的 结构 参数 可 以 表示 为 x = 


3 T 
[2 ; 根据 公式 (2)， 本 例 中 的 
[=I 


饱和 CDM 的 项 目 反应 函数 可 以 表示 为 ， 


Py = Ajo + Ajay + hj) + hj,2,0,2) (4) 


根据 属性 层级 关系 , HCDM 中 所 有 人 允许 存在 的 属性 
掌握 模式 是 ， 
(5) 


0 0 
a=|a, |=|1 0 
1 1 


即 HCDM 的 结构 参数 可 以 表示 为 x= (n,m, 
1-z -zs) ; HCDM 中 的 项 目 反应 函数 可 以 表示 
A, 


Py =4j0 + 4a + 4),2,0,2) (6) 


比较 表达 式 (3) 和 (5)， 及 表达 式 (4) 和 (6)， 可 以 发 现 
将 饱和 CDM 中 的 一 些 结构 参数 以 及 项 目 参 数 约束 
为 0， 可 获得 HCDM。 也 就 是 ， 如 果 “ 真 ”模型 为 
HCDM, 但 使 用 饱和 CDM 估计 模型 参数 时 ， 部 分 
模型 参数 的 真 值 等 于 0。 一 些 结构 模型 参数 真 值 等 
于 0, 意味 着 这 些 参数 在 参数 空间 的 下 界 ， 如 果 不 
解决 这 种 这 类 边界 值 问 题 可 能 会 造成 MLE-EM 参 
数 估计 存在 多 种 问题 。 

2.22 CDM 模型 参数 估计 中 可 能 存在 的 问题 

使 用 CDM 拟 合作 答 反应 数据 时 ， 如 果 模 型 参 
数 过 多 、 样 本 量 较 小 , 或 者 是 模型 参数 中 存在 边界 
值 尤其 是 结构 参数 中 存在 边界 值 等 问题 时 ， 可 能 
致 模型 参数 不 收敛 、 项 目 参 数 存 在 极端 值 或 者 是 存 
在 多 个 局 部 最 优 解 等 问题 (Ma & Jiang, 2021; Templin 
& Bradshaw, 2014)。 

CDM 的 项 目 正确 作答 概率 及 结构 参数 均 介 于 
[0,1] 之 间 。 在 估计 模型 参数 时 可 能 会 遇 到 项 目 参 数 
或 结构 参数 在 参数 空间 的 上 界 或 下 界 的 问题 ， 这 可 
能 会 造成 模型 参数 无 法 估计 , 或 者 是 造成 模型 参数 


的 标准 误 过 大 甚至 是 无 法 求解 。Ma 和 Jiang (2021) 
提出 贝 叶 斯 众 数 估计 及 单调 约束 ,估计 G-DINA 模 
型 的 项 目 参 数 。 但 是 , 他 们 的 研究 指出 贝 叶 斯 众 数 
估计 或 贝 叶 斯 众 数 与 单调 约束 结合 的 算法 估计 获 
得 的 项 目 参 数 可 能 是 有 偏 的 ; 另外 ,他 们 也 指出 在 
实践 应 用 中 先 验 分 布 的 选择 需要 非常 并 慎 ， 因 为 不 
恰当 的 先 验 信息 可 能 会 导致 误导 性 的 、 甚 至 是 错误 
的 结果 ,为 将 模型 参数 佑 计 值 约束 在 适当 的 边界 中 ， 
Yamaguchi (2023) 进 一 步 提 出 将 结构 参数 也 要 加 以 
约束 。 然 而 ， 当 属性 之 间 存 在 层级 关系 , 但 是 使 用 
饱和 结构 模型 估计 参数 时 ， 有 些 结构 参数 的 真 值 等 
于 0, 以 不 恰当 的 先 验 约束 使 其 远离 0 的 做 法 是 不 
对 的 。 

使 用 MLE-EM 估计 CDM 模型 参数 时 需要 设 定 
模型 参数 初始 值 yO ,在 y 的 基础 上 ,E 步 求 完整 数 
据 似 然 函数 的 期 望 , M 步 求 最 大 化 期 望 函 数 的 模型 
参数 。 每 一 次 迭代 ( 记 为 ，rep) 中 都 会 产生 一 个 模型 
参数 估计 向 量 y™*?， 收 敛 判 断 方法 的 值 小 于 收敛 容 
差 或 者 达到 最 大 迭代 次 数 则 和 迭代 停止 (George et al., 
2016; Ma & de la Torre, 2020)。 如 果 是 因为 收敛 判 
断 方法 的 值 小 于 收敛 容 差 而 停止 迭代 , 那么 模型 参 
数 收敛 , 并 且 将 最 后 一 次 迭代 中 的 参数 作为 模型 参 
数 估 计 值 9; 否则 , 没有 收敛 。 

接 下 来 将 针对 CDM 模型 参数 估计 中 的 结构 参 
数 边 界 值 、 最 大 迭代 次 数 以 及 初始 值 可 能 对 M 步 
造成 的 影响 及 迭代 次 数 展开 探讨 ， 曾 述 已 有 方法 存 
在 的 问题 ,具体 而 言 , MLE-EM 的 卫 步 中 进行 的 是 : 
给 定 观 察 数据 以 及 模型 参数 ”ee) 条 件 下 , OR SE 
整数 据 x 对 数 似 然 函 数 的 期 望 ， 


N J 
å I} i l-y, 
Ay |y: P ]=E oo) | "| Fr 0-2») 四 
j=l 


(7) 


n=l 


E 步 除 了 获得 以 上 表达 式 外 ,还 根据 观察 数据 y 以 
REMEBER yO? 计算 出 第 rep 次 迭代 中 所 有 属性 
掌握 模式 的 期 望 次 数 nee) 以 及 每 种 属性 掌握 模式 
下 正确 作答 项 目 j ENANA nP OM 步 进 行 的 是 : 
求 最 大 化 函数 OLy | yy P] 的 模型 参数 D 。 然 
后 用 ye 替换 E 步 中 的 模型 参数 ?oo ， 并 依次 
迭代 。 直 到 满足 收敛 条 件 , 或 者 达到 了 预先 设 定 的 
ERATE FRU BIT AF IE o 

以 饱和 G-DINA 模型 的 参数 估计 为 例 , EM 
中 ， 经 过 公式 推导 (参考 , de la Torre, 2009, 2011) 可 
以 求 得 更 新 后 的 第 1 种 属性 掌握 模式 下 项 目 j 正确 
作答 概率 的 表达 式 ， 
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preps ae a 响 。 然 而 ,， 当 CDM 的 似 然 函数 存在 多 个 局 部 最 优 
lj 二 


根据 PIP 可 以 容易 地 获得 CDM 项 目 参数 的 估计 
值 jP ; 更 新 后 的 结构 参数 估计 值 可 以 表示 为 
(rep) 
ayer) = (9) 

CDM 研究 中 至 少 有 两 种 情形 的 存在 会 使 得 结 
构 参数 出 现 边 界 问题 (DeCarlo, 2011, 2019; Templin 
& Bradshaw, 2014; Yamaguchi, 2023)。 第 一 种 情形 
是 属性 之 间 存 在 层级 关系 , 但 使 用 饱和 模型 估计 。 
对 比 饱和 CDM 及 HCDM 可 以 发 现 ， 如 果 “ 真 ”模型 
是 HCDM, 但 是 用 饱和 CDM 拟 合 数据 的 时 候 ， 模 
型 中 的 一 些 结构 参数 是 “不 允许 存在 ”的 参数 ， 即 这 
些 参数 的 真 值 为 0。 第 二 种 情形 是 样本 量 较 少 时 可 
能 使 得 某 些 属性 掌握 模式 所 对 应 的 被 试 量 较 少 或 
是 等 于 0。 以 上 两 种 情形 中 ,结构 参数 x 的 真 值 等 
于 0, 由 于 n=NxN, 可 能 使 M 步 中 出 现 属性 掌握 
模式 的 期 望 数 n"%?) 等 于 0 的 问题 。 即 公式 (8) 中 分 
子 、 分 母 有 可 能 等 于 0, 造成 迭代 异常 终止 。 结 构 
参数 边界 值 问题 与 模型 收敛 判断 以 及 CDM 的 参数 
估计 的 可 靠 性 紧密 关联 。 

对 于 边界 值 可 能 引起 的 问题 ， 目 前 至 少 有 3 种 
解决 方法 。 第 一 种 是 使 用 先 验 分 布 对 正确 作答 概率 
加 以 约束 (Liu et al., 2016; Ma & Jiang, 2021)。 这 种 
方法 在 使 用 时 需要 非常 谨慎 ， 因 为 它 会 导致 有 偏 的 
参数 估计 值 ， 尤 其 是 在 属性 之 间 存 在 层级 关系 的 情 
境 中 。 第 二 种 是 GDINA 软件 包 中 默认 采用 的 方法 
(Ma et al., 2022)。 具 体 做 法 是 : 如 果 公 式 (8) 的 分 母 
小 于 0.001, 那么 在 分 子 、 分 母 上 分 别 加 校正 系数 
0.0005 、0.001， 即 令 Bi?" =0.0005/0.001=0.5 。 
然而 ,这 一 设置 是 否 合理 有 待 商 权 。 第 三 种 是 CDM 
软件 包 中 采用 的 方法 , 每 次 迭代 中 均 在 公式 (8) 的 
oy FE nf" 加 上 一 个 非常 小 的 值 10”” (Robitzsch 
et al., 2022)。 但 是 ,这 种 设置 在 一 些 特殊 情况 下 (如 ， 
分 子 、 分 母 的 值 均 接近 10-" 时 ) 是 否 合 理 同样 有 待 
TALE 

MLE-EM 在 迭代 进行 前 需要 设置 模型 参数 初 
IME o CDM 模型 参数 估计 中 参数 初始 值 向 量 y9 的 
设置 可 能 会 对 MLE-EM 的 表现 造成 影响 。 估 计 模 
型 参数 时 , MLE-EM 以 参数 初始 值 y0 为 起 始点 通 
过 迭代 逐渐 收敛 到 (局 部 ) 最 优 的 模型 参数 估计 。 理 
想 情 况 下 ， 函 数 表 达 式 (7) 中 仅 存 在 全 局 最 优 解 ， 初 
始 值 yO 不 会 对 最 终 的 模型 参数 估计 值 》 产 生 影 


解 时 ,初始 值 ym 不同 ,最 终 估 计 获 得 的 7》 也 会 不 
一 样 。 即 ， 当 模型 满足 特定 收敛 准则 时 ,模型 参数 
估计 值 3” 可 能 仅 是 一 个 较 差 的 局 部 最 优 解 (Ma & 
Guo, 2019; Zeng et al., 2023)。 为 提高 CDM 模型 参 
数 舍 计 值 的 可 靠 性 , 人 研究 者 提出 使 用 多 个 初始 值 
(例如 ,300) 估 计 模 型 参数 (Ma & Guo, 2019); 或 者 
是 生成 多 个 初始 值 (例如 , 200) 并 计算 其 似 然 函 数值 ， 
然后 选择 似 然 函 数值 最 大 的 那 组 模型 参数 作为 
MLE-EM 和 迭代 的 初始 值 ,图 1 中 呈现 了 单个 参数 的 
局 部 最 优 解 与 全 局 最 优 解 的 简单 示例 。 在 这 个 例子 
中 ， 有 两 个 点 是 局 部 最 优 解 ， 一 个 全 局 最 优 解 。 假 
yO FE CDM 模型 中 的 任意 一 个 参数 的 初始 值 ， 
WR yO FE A 点 , 那么 最 终 收敛 于 图 中 左 侧 的 局 部 
最 优 解 ; 如 果 y 必 在 C 点 , 那么 最 终 收敛 于 图 中 碳 
侧 的 局 部 最 优 解 ; 如果 yW 在 B 点 ,那么 最 终 收敛 
于 全 局 最 优 解 ; 在 这 3 个 解 中 , 初始 值 取 A 点 时 的 
解 是 最 差 的 。 需 要 特别 说 明 的 是 , CDM 参数 估计 过 
程 远 比 图 1 中 呈现 的 过 程 复 杂 , 单一 的 初始 值 难以 
保证 获得 较 好 的 模型 参数 估计 。 

A 全 局 最 优 解 


Q[yly; x2] 
局 部 最 优 解 


图 1 单个 参数 的 局 部 最 优 解 或 全 局 最 优 解 的 简单 示例 


23 CDM 模型 参数 估计 的 收敛 准则 

收敛 准则 用 于 判断 模型 参数 估计 值 是 否 已 经 
足够 接近 模型 参数 最 优 解 。 一 般 而 言 ， 收 敛 准 则 由 
收敛 判断 方法 、 收 敛 容 差 及 最 大 和 迭代 次 数 这 三 部 分 
组 成 (Paek & Cai, 2013)。 收 敛 容 差 是 研究 者 在 模型 
参数 估计 前 预先 设 定 的 、 用 于 判断 模型 是 否 收敛 的 
一 个 较 小 的 值 ( 例 如 ，103 或 105， 甚 至 更 小 )。 模 型 
参数 估计 中 ， 如 果实 际 和 迭代 次 数 没 有 达到 预先 设 定 
的 最 大 迭代 次 数 ， 收 敛 判 断 方法 在 迭代 前 与 迭代 后 
的 差异 小 于 收敛 容 差 ,说明 模 型 参数 估计 值 收敛 ; 
如 果实 际 迭 代 次 数 达 到 了 最 大 和 迭 代 次 数 , 但 是 收敛 
判断 方法 在 迭代 前 与 迭代 后 的 差异 没有 小 于 收敛 
容 差 .说明 模型 参数 估计 值 没有 收敛 ,无 法 获得 模 
型 的 极 大 似 然 估 计 值 。 

当前 ,可 以 用 于 判断 CDM 模型 参数 估计 是 否 
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收敛 的 方法 至 少 有 6 种 (George et al., 2016; Ma & 
de la Torre, 2020; Ma et al., 2022; Robitzsch et al., 
2022; Rupp & van Rijn, 2018). 

第 一 种 是 项 目 参 数 差 的 绝对 值 。 这 种 方法 的 思 
想 是 如 果 人 迭代 后 的 项 目 参数 向 量 值 40 与 迭代 
前 的 项 目 参数 向 量 值 4"?) 的 差 的 绝对 值 中 的 最 大 
值 max fabs[ AP? 一 42")]} ， 小 于 预先 设 定 的 收敛 
容 差 ， 则 认为 模型 参数 收敛 上 且 停 止 迭 代 。 这 种 收敛 
判断 方法 的 优势 在 于 , 它 所 使 用 的 收敛 容 差 就 是 项 
目 参数 的 精度 。 

第 二 种 是 模型 参数 差 的 绝对 值 。 这 种 方法 与 项 
目 参数 绝对 值 差 类 似 ; 不 同 之 处 在 于 模型 参数 差 的 
绝对 值 将 结构 参数 的 差 也 纳入 到 收敛 判断 中 ， 即 
max {abs[ yp" *) yC] 中 的 最 大 值 仍 小 于 收敛 容 
ZEN, 认为 模型 参数 收敛 。 

第 三 种 是 项 目 正 确 作 答 概 率 差 的 绝对 值 。 这 种 
方法 比较 的 是 迭代 前 后 所 有 项 目 在 所 有 属性 掌握 
模式 条 件 下 的 正确 作答 概率 的 绝对 值 的 差 中 的 最 
大 值 max fabs[ PP) - POP) 是 否 小 于 某 个 预先 设 
定 的 收敛 容 差 , 其 中 Pe {Py 。 

第 四 种 是 项 目 正确 作答 概率 和 结构 参数 组 成 
的 向 量 的 差 的 绝对 值 。 这 种 方法 以 第 三 种 方法 为 基 
础 ,将 结构 参数 也 纳入 考虑 ， 因 此 不 再 歼 述 。 可 以 
发 现 ， 以 上 4 种 收敛 判断 方法 是 基于 全 部 或 部 分 模 
型 参数 的 。CDM 中 项 目 正 确 作 答 概 率 一 般 是 由 项 
目 参 数组 合 而 成 ， 也 就 是 说 相对 于 项 目 参数 而 言 ， 
项 目 正 确 作答 概率 差 这 种 方法 更 容易 满足 模型 收 
敛 准则 。 

第 五 种 是 对 数 似 然 函数 差 。 对 数 似 然 函 数 差 计 算 
的 是 观察 数据 的 第 rep 次 及 与 第 rep+1 KERM 2 
倍 对 数 似 然 函数 的 差 的 绝对 值 abs{—2[ 0g" ly) — 
OCPI] 。 这 个 方法 认为 迭代 前 后 的 对 数 似 然 函 
数值 的 差 小 于 收敛 容 差 时 , 似 然 函 数 取得 了 最 大 
fH. SAT, 有 研究 者 指出 这 种 方法 的 不 足 之 处 在 于 
对 数 似 然 函 数值 的 大 小 受到 项 目 数量 及 被 试 量 的 
影响 , 因此 建议 使 用 相对 似 然 差 。 

第 六 种 是 相对 似 然 差 。 相 对 似 然 差 方法 将 对 数 
似 然 函数 的 值 也 纳入 到 收敛 判断 方法 的 计算 中 。 EE 
试图 消除 对 数 似 然 函数 值 的 大 小 对 于 收敛 准则 的 
影响 。 这 种 方法 比较 的 是 迭代 前 后 两 个 似 然 函 数 的 
差 与 当前 似 然 函 数 的 比 的 绝对 值 是 否 小 于 预先 设 
E AY WO A 2. GDINA 软件 包 中 使 用 的 是 
abs{2[40 y) — 69) by)]/ LPY) (Ma et al., 
2022)。 这 个 方法 的 不 足 之 处 在 于 模型 参数 估计 前 


(人 | 切 是 未 知 的 ,因此 如 何 根据 这 个 未 知 值 而 去 预 
先 设置 恰当 的 收容 差 是 这 个 方法 存在 的 问题 。 

CDM 模型 参数 估计 中 ,研究 者 使 用 的 收敛 判 
断 方 法 、 收 敛 容 差 及 最 大 迭代 次 数 上 有 明显 差异 。 
研究 者 经 常 使 用 的 收敛 判断 方法 是 项 目 参数 差 的 
绝对 值 ， 且 对 应 的 收敛 容 差 为 105 或 10” (参考 , de 
la Torre 2009, 2011; Ma & de la Torre, 2016; Paulsen 
& Valdivia, 2022; Sen & Terzi, 2020). 一些 研究 者 在 
使 用 项 目 参数 差 的 绝对 值 时 ,将 收敛 容 差 设置 的 更 
小 ,例如 10” (George et al., 2016), 10° (Rupp & 
van Rijn, 2018) 或 10” (Chiu et al., 2023); 也 有 一 
些 研 究 者 使 用 对 数 似 然 函 数 差 进行 收 和 敛 判 断 ， 并 将 
收敛 容 差 设置 为 10 了 或 10” (Khorramdel et al., 
2019; Ma & Guo, 2019)。 但 是 Rupp 和 van Rijn (2018) 
认为 对 数 似 然 函数 差 依赖 于 项 目 数量 及 被 试 量 , 在 
进行 模型 参数 收敛 判断 时 相对 似 然 差 可 能 会 更 好 。 
但 是 他 们 并 没有 对 相对 似 然 差 的 表现 ， 以 及 这 种 方 
法 适用 的 收敛 容 差 进行 研究 。 

另外 ,研究 者 在 估计 模型 参数 时 大 多 倾向 于 使 
用 软件 的 默认 设置 ， 较 少 对 默认 选项 进行 修改 , 但 
是 CDM 模型 参数 估计 软件 的 默认 设置 也 有 较 大 区 
别 。 举 例 而 言 , GDINA 及 CDM 软件 包 中 默认 使 用 
的 收敛 准则 有 明显 区 别 (Ma et al., 2022; Robitzsch 
et al., 2022), GDINA 软件 包 中 默认 使 用 的 收敛 判断 
方法 、 收 敛 容 差 及 最 大 迭代 次 数 分 别 是 : 项 目 正 确 
作答 概率 和 结构 参数 组 成 的 向 量 的 差 的 绝对 值 、 
10” 及 2000, CDM 软件 包 中 使 用 的 是 收敛 方法 的 
组 合 ,并且 不 同 函 数 使 用 的 默认 设置 不 同 。 CDM 软 
件 包 中 gdina 函数 中 默认 使 用 的 收敛 准则 是 : 收敛 
容 差 为 10 “的 项 目 参数 差 的 绝对 值 方法 与 收敛 容 
差 为 1071 的 对 数 似 然 函 数 差 方 法 的 组 合 ,， 且 最 大 和 
代 次 数 为 1000。 

可 以 发 现 , 研究 者 使 用 的 收敛 准则 有 很 大 差 
别 。 因 此 ， 相 同 计量 模型 条 件 下 ,不 同 的 收敛 准则 
是 否 会 对 模型 参数 点 估计 的 可 靠 性 产生 影响 ， 如 果 
产生 影响 , 在 目前 所 有 可 用 的 模型 参数 估计 收敛 判 
断 方法 中 ， 哪 种 效果 是 最 好 的 ; 或 者 是 能 否 开发 一 
种 具有 广泛 适用 性 的 方法 提高 CDM 模型 参数 点 佑 
计 的 可 靠 性 是 一 个 需要 解决 的 重要 问题 。 


3 ”新 的 模型 参数 估计 框 和 保 及 收敛 准则 
如 前 所 述 CDM 模型 参数 估计 中 的 边界 值 、 局 


部 最 优 解 、 项 目 参 数 极端 值 、 模 型 参数 不 收敛 ， 以 
及 收敛 准则 设置 等 可 能 会 对 模型 参数 点 估计 的 可 
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靠 性 产生 影响 ,进而 可 能 会 影响 到 研究 结果 的 可 重 
复 性 。 因 此 ， 本 文 提 出 新 的 模型 参数 估计 框架 试图 
解决 2.2 部 分 提 及 的 模型 参数 估计 中 可 能 存在 的 问 
题 ; 提出 新 的 收敛 准则 试图 解决 2.3 部 分 提 及 的 收 
敛 准 则 可 能 存在 的 问题 。 

首先 ， 阐述 边界 值 问题 的 解决 方法 。 通 过 2.2 
部 分 可 以 发 现 ， 当 前 关于 边界 值 的 3 种 解决 方法 都 
存在 一 些 可 能 的 不 足 。 借 鉴 GDINA 及 CDM 软件 包 
中 的 设置 ,本文 使 用 的 是 : 如 果 公 式 (8) 的 分 母 小 于 
10 时 , 在 分 母 上 加 上 10-™。 第 1 种 属性 掌握 模式 
下 ,正确 作答 项 目 j 的 期 望 人 数 (分 子 ) 不 大 于 这 个 
属性 掌握 模式 下 的 期 望 人 数 ( 分 母 )) 所 以 使 用 这 个 
方法 可 以 保证 公式 (8) 中 PPD 的 最 大 值 不 会 超过 
0.01。 即 ， 这 个 方法 在 保证 分 母 不 等 于 0 的 前 提 下 ， 
尽量 减 小 校正 系数 对 正确 作答 概率 的 影响 。 感 兴 
的 读者 可 以 尝试 使 用 其 他 值 ， 但 是 我 们 认为 只 要 满 
足 分 母 不 等 于 0, APP 较 小 如, 小 于 0.01) 这 
两 个 条 件 , 不 同 的 校正 系数 对 模型 参数 估计 结果 不 
会 产生 明显 影响 。 

其 次 ， 曾 述 局 部 最 优 解 、 项 目 参 数 极端 值 、 模 
型 参数 不 收敛 等 问题 的 综合 解决 方法 。 

模型 参数 收敛 判断 中 , CE TCE RR HY ME 
一 目的 是 避免 模型 参数 估计 程序 陷入 到 无 限 (或 近 
乎 于 无 限 ) 循 环 。 然 而 ,在 模型 参数 本 应 收敛 的 情况 
下 ， 如 果 将 最 大 收敛 次 数 设置 的 过 小 ,可 能 会 使 得 
MLE-EM 过 时 结束 循环 ,造成 不 收敛 的 错误 结 
解决 不 收敛 问题 的 首要 一 步 是 设置 足够 大 的 收敛 
次 数 , 因此 本 研究 中 将 最 大 收敛 次 数 设置 为 50000。 
CDM 的 模型 参数 仅 存 在 全 局 最 优 解 的 一 个 前 
EEANN th PR. 但 是 , 这 个 前 提 有 时 未 必 成 
立 ， 导 致 模型 参数 可 靠 性 变 差 。 因 此 ,参考 Ma 和 
Guo (2019) 的 相关 研究 ， 本 文 提出 使 用 多 个 初始 值 
计算 CDM 模型 参数 。 即 ， 遇 到 不 收敛 或 项 目 参数 
存在 极端 值 时 重新 生成 初始 值 并 计算 ， 如 果 新 初始 
值 条 件 下 的 模型 参数 收敛 、 对 数 似 然 画 数值 大 于 先 
前 的 值 、 且 项 目 参 数 不 存 在 极端 值 时 , 使 用 新 的 估 
计 值 作为 最 终 的 模型 参数 估计 值 。 在 接 下 来 的 部 分 
将 这 个 新 的 模型 参数 估计 框架 称 为 mCDM, 并 以 
此 为 基础 探讨 各 种 收敛 准则 的 表现 。 由 于 mCDM 
在 特定 条 件 下 , 需要 对 于 同一 观察 数据 和 矩阵 y, 在 
多 个 不 同 初始 值 下 进行 模型 参数 估计 ,运算 量 可 能 
SRK, AUB Wt HE (XIE, 2022), 
mCDM 程序 计算 量 大 的 部 分 采用 C++ 语言 及 并 行 
计算 进行 。 特 别 说 明 的 是 , mCDM 程序 已 上 传 到 科 


< 


学 数据 银行 , 感 兴趣 的 读者 可 以 自行 下 载 使 用 。 

最 后 ,阐述 本 文中 新 提出 的 收敛 判断 方法 。 

极 大 似 然 法 估计 的 原理 是 找到 最 大 化 观察 数 
据 对 数 似 然 函数 的 模型 参数 值 ， 并 将 其 作为 模型 参 
数 “ 真 值 ”的 估计。 收敛 判断 方法 的 用 途 是 判断 观察 
数据 对 数 似 然 函 数 的 值 是 否 已 经 近似 达到 了 最 大 。 
但 是 ,单一 的 判断 方法 在 特定 条 件 下 可 能 存在 缺 
陷 。 以 对 数 似 然 函 数 差 及 模型 参数 差 的 绝对 值 为 例 
进行 说 明 。 对 数 似 然 函数 差 方 法 假定 第 rep 次 及 与 
第 rep+1 次 迭代 的 对 数 似 然 函数 的 差 小 于 预 设 的 收 
BUS ZEN, 似 然 函数 值 达 到 了 最 大 。 图 2 中 呈现 了 
对 数 似 然 函 数 差 收 敛 判断 方法 可 能 存在 的 缺陷 的 
简单 示例 。 假定 B 点 为 CDM 中 任意 一 个 参数 的 初 
始 值 xy 。 当 模型 参数 y"?) 接 近 全 局 最 优 解 时 ， 如 
果 似 然 函 数 的 曲线 比较 平坦 (可 参考 Farrell & 
Lewandowsky, 2018), 那么 将 会 出 现 模 型 参数 差 的 
绝对 值 变化 较 大 , 但 是 对 数 似 然 函 数 差 变化 非常 小 
的 问题 。 即 ,模型 参数 差 的 绝对 值 的 判断 效果 优 于 
对 数 似 然 函数 差 。 模 型 参数 差 的 绝对 值 可 能 存在 的 
问题 在 于 , 似 然 函数 值 的 大 小 除了 受到 模型 参数 值 
的 影响 之 外 ， 还 受到 项 目 数量 及 被 试 数量 的 影响 
(可 参考 Rupp & van Rijn, 2018)。 


全 局 最 优 解 
Qlyby; xP] 


ye) 
图 2 对 数 似 然 函数 差 收 敛 判 断 方法 可 能 缺陷 的 简单 示例 


理论 而 言 ， 进行 CDM 模型 参数 估计 时 , 模型 
参数 估计 收敛 判断 方法 及 收敛 容 差 设置 越 严 格 (这 
也 就 意味 着 在 相同 收敛 容 差 条 件 下 ， 壕 代 次 数 更 
多 )， 就 越 能 获得 使 得 Cpl) 最 大 化 的 模型 参数 估计 
值 。 然 而 , 实践 中 由 于 样本 量 、 项 目 数量 、 属 性 数 
量 、 项 目 反 应 模型 、 属 性 层级 关系 及 O 矩阵 元 素 可 
能 存在 错误 设 定 等 因素 的 存在 ,很 难 预先 判断 哪 种 
方法 及 相应 的 收敛 容 差 是 最 严格 的 。 因 此 ,参考 以 
往 研 究 (George et al., 2016; Ma & de la Torre, 2020; 
Ma et al., 2022; Robitzsch et al., 2022; Rupp & van 
Rijn, 2018; von Davier, 2008; Xu & von Davier, 
2008), 为 克服 单一 判断 方法 可 能 存在 的 缺陷 ， 本 
文 提 出 在 给 定 收 敛 容 差 的 基础 上 综合 使 用 模型 参 
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数 差 的 绝对 值 、 项 目 正确 作答 概率 和 结构 参数 组 成 及 mCDM 程序 。 收 和 敛 判 断 方 法 有 5 种 : 模型 参数 


的 向 量 的 差 的 绝对 值 、 对 数 似 然 函数 差 以 及 相对 似 
然 差 进行 模型 参数 收敛 判断 , 并 将 其 称 为 综合 判断 法 。 

需要 说 明 的 是 ， 相 对 于 项 目 参数 (或 项 目 正确 
作答 概率 ) 而 言 ， 结 构 参 数 的 数量 相对 较 少 。 被 试 观 
察 作答 反 应 数据 可 以 为 每 个 结构 参数 提供 更 多 的 
信息 ， 其 估计 值 能 够 较 快 地 固定 下 来 。 即 ， 理 论 上 
收敛 判断 方法 中 是 否 包含 结构 参数 应 该 没有 明显 
差别 。 但 是 审 层 起 见 ， 在 接 下 来 的 研究 中 采用 包含 


差 的 绝对 值 、 项 目 正 确 作答 概率 和 结构 参数 组 成 的 
向 量 的 差 的 绝对 值 、 对 数 似 然 函 数 差 、 相 对 似 然 差 
以 及 综合 判断 法 。 并 将 这 5 种 收敛 判断 法 分 别 简 记 
为 : dp, ip, ll, rl 及 comp。 参 考 先前 研究 ， 本 文 
中 考虑 了 3 种 收敛 容 差 : 107, 10°, 10%, AK 
分 不 同 的 收敛 准则 , 将 GDINA 框架 下 的 收敛 方法 
简称 前 加 字母 “G”、mCDM 框架 下 的 方法 加 字母 
“m”, HK 3 种 收敛 容 差 的 小 数位 数 加 在 收敛 方法 


结构 参数 的 方法 。 另 外 , 与 GDINA 包 不 同 , 本 研究 
中 mCDM 程序 使 用 的 相对 似 然 差 的 计算 公式 是 
abs {LL Pp) — Ly y] LPP ly)} 。 
综 上 所 述 ， 本 人 研究 提出 了 基于 MLE-EM 的 
CDM 模型 参数 估计 新 框架 及 新 收敛 准则 ,以 提高 
模型 参数 点 估计 的 可 靠 性 。 新 的 模型 参数 估计 框架 
包括 对 MLE-EM 方法 中 的 卫 步 及 M 步 的 改进 。 对 
E 步 的 主要 改进 是 ， 必 要 时 (如 ,模型 参数 不 收敛 或 
项 目 参 数 存在 极端 值 时 ) 使 用 不 同 的 初始 值 分 别 重 
新 计算 互 步 中 的 期 望 次 数 及 进行 后 续 的 迭代 。 对 M 
步 的 主要 改进 是 , 保证 公式 (8) 中 分 母 不 等 于 0 H 


PLP 较 小 。 
4 模拟 研究 


4.1 研究 目的 

本 研究 重点 关注 的 问题 是 : 新 提出 的 模型 参数 
估计 框架 及 收敛 准则 能 否 有 效 提 高 模型 参数 点 估 
计 值 的 可 靠 性 。 即 ,新 提出 的 mCDM 框架 下 的 综合 
判断 方法 是 否 优 于 现 有 框架 下 的 方法 , 能 否 在 尽量 
保证 参数 在 合理 范围 内 的 前 提 下 ， 获 得 使 得 似 然 函 
数 最 大 的 参数 估计 值 。 具体 包括 : (1) 数 据 生成 模型 
与 拟 合 模型 均 为 饱和 G-DINA 时 ， 即 模型 完全 正确 
设 定 条 件 下 各 种 收敛 准则 的 表现 ; (2) 数 据 生 成 模型 
为 HCDM 但 使 用 饱和 G-DINA 拟 合 时 ， 即 模型 中 存 
在 边界 值 时 各 收敛 准则 的 表现 。 
42 ”研究 方法 

模型 参数 收敛 准则 的 表现 依赖 于 具体 的 模型 
参数 估计 方法 ， 除 本 文中 新 开发 的 MCDM 程序 外 ， 
CDM (version 8.2-6; Robitzsch et al., 2022), GDINA 
(version 2.9.3; Ma et al., 2022) 这 两 个 开源 软件 包 也 
可 用 于 模型 参数 估计 ,然而 , CDM 包 默 认 的 设置 是 ， 
当 K 宕 4 时 使 用 属性 掌握 模式 简化 方法 估计 结构 
参数 (Xu & von Davier, 2008)。 本 文 预 研究 发 现 这 个 
方法 下 获得 的 一 些 结构 参数 估计 值 是 有 偏 的 .因此 ， 
本 研究 使 用 的 模型 参数 估计 框架 有 两 种 : GDINA 


简称 后 。 例 如 , 将 GDINA 框架 下 判断 方法 为 模型 
参数 差 的 绝对 值 及 收敛 容 差 为 10” 的 收敛 准则 , 简 
记 为 Gdp4; 将 mCDM 框架 下 判断 方法 为 综合 判断 
方法 及 收敛 容 差 为 10 的 收敛 准则 ,， 简 记 为 mcomp6。 
即 ， 本 文 探讨 2 种 计算 框架 、5 种 收敛 判断 法 、3 
种 收敛 容 差 所 组 成 的 30 种 收敛 准则 在 可 能 影响 因 
素 中 的 表现 。 

模拟 研究 中 考虑 了 2 种 数据 生成 模型 : 饱和 
G-DINA 模型 以 及 属性 (al 、g，, 、Q;) 之 间 呈 线性 层 
级 关系 的 HCDM。 鉴于 实践 中 难以 在 CDM 的 模型 
参数 之 前 预先 设 定 恰当 的 层级 关系 ， 因 此 ,选择 饱 
和 G-DINA 作为 拟 合 模型 。 样本 量 及 项 目 数量 对 模 
型 参数 佑 计 准 确 性 有 重要 影响 ， 因 此 对 于 收敛 准则 
的 表现 也 可 能 会 产生 影响 。 本 研究 中 考虑 了 3 种 样 
本 量 : N = 500、1000 及 4000; 有 2 个 水 平 的 项 目 
数量 : J= 16、32; 日 将 属性 数量 固定 为 4。 为 保证 
CDM 的 模型 参数 具有 可 识别 性 (Gu & Xu 2019, 
2020), 项 目 数量 为 16 时 本 研究 使 用 图 3 中 呈现 的 
O JEM; 将 图 3 中 的 O 矩阵 重复 两 次 ,构建 项 目 数 
量 为 32 时 的 O ERE. 
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图 3 模拟 研究 中 J= 16 Hy O FEE 


为 更 好 地 贴近 CDM 应 用 情景 ,参考 Liu (2018) 
及 Liu 等 人 (2022) 的 研究 设计 , 使 用 以 下 步骤 生成 
项 目 参 数 及 结构 参数 真 值 ，(1) 项 目 参 数 中 截 距 项 
( 即 猜测 参数 ) P(0) 随机 取 自 [0.05，0.4] 的 均匀 分 布 ; 
正确 作答 概率 参数 PA) 随机 取 自 [0.6，0.95]; 并 且 
将 主 效应 项 及 交互 效应 项 设置 为 相等 ， 即 主 效应 及 
交互 效应 的 参数 值 都 等 于 [PCO-P(O] 除 以 它们 的 
个 数 。(2) 结 构 参 数 的 真 值 根据 多 维 正 态 分 布 生 成 ， 
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具体 步骤 是 : 首先 , 将 多 维 正 态 分 布 的 均值 向 量 设 
置 为 0, 方差 一 协 方差 和 矩阵 的 非 对 角 线 元 素 的 值 从 
均匀 分 布 [0.3，0.7] 中 随机 抽取 。 然 后 ， 从 多 维 正 态 
分 布 中 随机 一 百 万 被 试 ， 并 以 0 为 切 点 对 每 个 被 试 
的 取 值 向 量 进行 二 分 化 处 理 ， 即 ， 向 量 中 的 值 大 于 
0 设置 为 1， 其 他 情况 设置 为 0， 以 此 转化 为 属性 掌 
握 模式 。 最 后 ， 当 数据 生成 模型 为 饱和 G-DINA Ff, 
直接 计算 这 一 百 万 个 被 试 的 属性 掌握 模式 在 工种 属 
性 掌握 模式 上 的 分 布 比 例 ， 并 将 其 作为 结构 参数 的 
真 值 ， 当 数据 生成 模型 为 HCDM 时， 只 计算 这 一 百 
万 个 被 试 的 属性 掌握 模式 中 允许 存在 的 属性 掌握 
模式 的 比例 , 并 将 其 作为 HCDM 中 结构 参数 的 真 
值 。 每 种 实验 条 件 组 合 重复 500 次 以 获得 稳定 的 模 
拟 结 果 ,， 且 将 mCDM 及 GDINA 的 最 大 迭代 次 数 都 
设置 为 50000。 
4.3 ”评价 指标 

收敛 准则 的 目的 是 判断 迭代 过 程 中 的 模型 参 
数 是 否 已 经 最 大 化 了 似 然 函 数 ， 因 此 本 研究 的 评价 
指标 主要 围绕 对 数 似 然 函 数 进行 构建 包括 : 最 佳 
似 然 函 数 次 数 (LLeess )， 似 然 函 数 的 均值 (LLaeso )、 
似 然 函数 的 最 大 值 ( LL, )、 似 然 函数 的 最 小 值 
(LL nin ) 以 及 似 然 函 数 的 标准 差 (LL )。 最 佳 似 然 函 
数 次 数 指 的 是 30 种 收敛 准则 在 500 次 重复 中 分 别 取 

500 

得 最 佳 似 然 函数 值 的 次 数 LLees = X I (LLconv_R = 


R=1 
LLnax r); EP, Lleon R 表 示 各 收敛 准则 在 第 R 
次 重复 中 对 应 的 对 数 似 然 画 数值 ，LLnax R= 
max(LL con R) 表示 第 R 次 重复 中 所 有 收敛 准则 对 
应 的 对 数 似 然 函 数 的 最 大 值 ，I 是 示 性 函数 用 于 判 
断 前 后 两 个 函数 值 是 否 相 等 ， 如果 Loo 与 
LLma 相等 ,函数 了 的 值 等 于 1， 否则 等 于 0。 关 
F Lh post 需要 特别 说 明 的 是 , 在 单 次 循环 中 可 能 会 
有 多 个 收 钱 准则 同时 取得 最 佳 似 然 函 数值 ，LLspos 
的 值 越 大 说 明 的 是 收敛 准则 的 表现 越 好 。 LLiea > 
LLnax > LL min AK LL gg 表示 500 次 重复 中 30 种 收 
SUE IU Ao Sal) AT AY ATAU SA K ICEL FEL. REA 
值 、 最 小 值 以 及 标准 差 .例如 LL =mean(LL oon R) o 
其 他 评价 指标 还 包括 : 500 次 重复 中 30 种 收敛 
准则 分 别 对 应 的 模型 参数 估计 程序 单 次 运行 的 平 
HIRT timean ， 单 位 是 秒 ), 平均 迭代 次 数 (It )， 
实际 迭代 次 数 的 最 大 值 (Ttrs )， 所 有 项 目 参 数 出 
现 极 端 值 的 总 数 (将 项 目 参数 大 于 1 或 者 是 小 于 -1 
定义 为 极端 值 ， 表示 为 ,1)， 以 及 模型 参数 估计 程 
序 未 收敛 次 数 的 总 次 数 。 


4.4 ”模拟 结果 

在 呈现 具体 结果 前 ,首先 对 两 个 一 般 性 的 结 
进行 说 明 。 本 研究 中 所 有 实验 条 件 组 合 下 模拟 结 
显示 : (1) 4 AGERE BCA 50000 时 ， 所 有 重复 中 
的 模型 参数 都 收敛 了 , 没有 出 现 未 收敛 情况 。 即 ， 
未 收敛 次 数 指标 均 为 0。(2) 在 相同 的 模型 参数 估计 
框架 (GDINA 或 mCDM) RUSH AZ (107 . 10° HK 
10°) FP, FPP IMT, rl 方法 的 表现 是 最 
ZW, FELL egg 均 为 0。 因 此, 在 结果 部 分 不 再 呈现 
1 方法 的 模拟 结果 。 
4.4.1 饱和 CDM 生成 数据 时 各 收敛 准则 的 表现 

表 1 中 呈现 的 是 使 用 饱和 G-DINA 生成 数据 ,J= 
16, N = 500 条 件 下 除了 方法 外 的 24 种 收敛 准则 
的 表现 。 通 过 表 1 中 的 LLpe 指标 可 以 发 现 , 在 这 
些 收敛 准则 中 ,表现 最 好 的 是 新 框架 mCDM 下 收 
敛 容 差 为 10 的 综合 判断 法 mcomp8。 就 收敛 判断 
方法 而 言 ,在 相同 收敛 容 差 条 件 下 ,不 论 是 GDINA 
框架 还 是 mCDM 框架 下 ,表现 最 好 的 是 comp 方法， 
其 次 是 dp 方法 ; ip 与 dp 方法 的 表现 较为 类 似 , 但 
是 dp 的 表现 稍 好 , 这 主要 是 因为 dp 是 模型 参数 ， 
而 ip 是 参数 的 组 合 。 就 收敛 容 差 而 言 ， 同 一 模型 参 
数 估计 框架 和 收敛 判断 方法 下 ， 随 着 收敛 容 差 变 小 ， 
收敛 准则 的 表现 也 在 变 好 。 以 comp 方法 为 例 ， 随 
着 收敛 容 差 从 10 了 变化 到 10《*，Gcomp 在 LL 指标 
上 近似 相等 但 是 在 LLpesw > LLmean > Llc > Llin 
指标 上 的 表现 在 变 好 ; momp 在 这 些 指标 上 的 表现 
与 Gcomp 类 似 。 另 外 需要 指出 的 是 ， 当 收敛 容 差 从 
105 变 化 到 108 时 ，LLas，、LL » LLinax » LL 
等 指标 几乎 没有 明显 变化 , 但 是 可 以 发 现 Iris 以 
及 It 有 较 大 增长 。 就 模型 参数 估计 框架 而 言 ， 可 
以 明显 发 现 各 个 收敛 准则 在 mCDM 框架 下 的 表现 
要 优 于 GDINA 框架 , 一 个 明显 的 例子 是 , mcomp8 
在 LLsost 指标 上 的 表现 优 于 Gcomp8。 并 且 mCDM 
HEZE F t nean 及 4 也 明显 优 于 GDINA 框架 。 通 过 
Itras 指标 可 以 发 现 , 无 论 是 GDINA 还 是 mCDM 的 
实际 所 使 用 的 迭代 次 数 的 最 大 值 都 超过 了 30000。 这 
说 明 一 些 CDM 参数 估计 软件 中 最 大 迭代 次 数 默认 设 
置 是 不 合理 的 , 会 产生 模型 参数 不 收敛 的 错误 结论 。 

根据 表 1 中 的 结果 , 各 收敛 判断 方法 的 收敛 容 
EEF ION, 在 LLees 指标 上 均 没 有 好 的 表现 ; 
尽管 ip 类 方法 与 dp 类 方法 表现 类 似 , 但 是 ip 类 的 
表现 相对 较 差 。 因 此 , 模型 完全 正确 设 定 条 件 下 ， 
不 再 呈现 收敛 容 差 为 10”、 及 收敛 判断 方法 为 ip 时 ， 
各 收敛 准则 的 模拟 结果 。 


min 
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表 1 饱和 CDM 生成 数据 , J=16,N =500 条 件 下 的 模拟 结果 
收敛 准则 LLges LL mean LL max LL rin LL trean Tt pean Tt nax Aout 
Gdp4 0 —4948.024 —4847.235 —5054.561 34.436 0.540 180 848 62 
Gdp6 240 —4948.011 —4847.226 —5054.557 34.437 1.181 474 5752 61 
Gdp8 280 —4948.011 —4847.226 —5054.557 34.437 2.068 901 32057 61 
Gip4 0 —4948.027 —4847.234 —5054.561 34.438 0.507 164 730 59 
Gip6 232 —4948.011 —4847.226 —5054.557 34.437 1.131 452 5680 61 
Gip8 279 —4948.011 —4847.226 —5054.557 34.437 1.847 863 28030 61 
Gll4 0 —4948.024 —4847.229 —5054.558 34.438 0.520 169 844 60 
Gll6 48 —4948.017 —4847.226 —5054.557 34.431 0.858 329 1819 61 
Gll8 273 —4948.011 —4847.226 —5054.557 34.437 1:217 531 6760 61 
Gcomp4 0 —4948.022 —4847.229 —5054.558 34.436 0.566 190 848 62 
Gcomp6 240 —4948.011 —4847.226 —5054.557 34.437 1.189 478 5752 61 
Gcomp8 281 —4948.011 —4847.226 —5054.557 34.437 2.062 905 32057 61 
mdp4 0 —4948.021 —4847.234 —5054.560 34.436 0.254 179 877 59 
mdp6 360 —4948.008 —4847.226 —5054.556 34.437 0.461 479 5803 59 
mdp8 498 一 4948.008 —4847.226 —5054.556 34.437 0.735 953 32053 59 
mip4 0 —4948.022 —4847.234 —5054.560 34.436 0.241 165 774 58 
mip6 346 —4948.012 —4847.226 —5054.556 34.441 0.432 453 5730 59 
mip8 496 —4948.008 —4847.226 —5054.556 34.437 0.690 912 28026 59 
mll4 0 —4948.021 —4847.228 —5054.557 34.437 0.240 168 923 57 
mll6 69 —4948.018 —4847.226 —5054.556 34.435 0.349 335 1978 59 
mll8 485 一 4948.008 —4847.226 —5054.556 34.437 0.495 585 6756 59 
mcomp4 0 —4948.019 —4847.228 —5054.557 34.435 0.258 189 923 59 
mcomp6 363 一 4948.008 —4847.226 —5054.556 34.437 0.462 485 5803 59 
mcomp8 500 —4948.008 —4847.226 —5054.556 34.437 0.734 958 32053 59 


表 2 中 呈现 的 是 使 用 饱和 CDM 生成 数据 , J = 
16 时 N= 1000 和 4000 两 种 样本 量 水 平 下 各 收敛 准 
则 的 表现 。 在 N= 1000 样本 量 水 平 下 ， 表现 最 好 的 
收敛 准则 同样 是 mcomp8; 当 N = 4000 日 收敛 容 差 
HAO, 表 2 中 各 收敛 准则 均 有 好 的 表现 。 综 合 
比较 表 1 与 表 2, 可 以 发 现 随 着 样本 量 的 增加 : (1) 收 
敛 容 差 为 0 和 10 习 的 dp. 1, LAR Gcomp 方法 在 
LLpest > LLmean 、LLwax 、LLwin 等 指标 上 的 表现 都 
在 变 好 , 但 是 相对 而 言 收 敛 容 差 为 10 忆 时 各 方法 的 
表现 更 好 ; (2) traean > Hna 及 ?指标 均 在 变 小 ， 甚 
Æ N = 4000 时 4 ,等 于 0; (3) 在 N=500 和 1000 水 
平 下 ,mCDM 框 架 下 各 收敛 准则 的 表现 优 于 GDINA 
框架 , 但 N = 4000 时 GDINA 框架 下 大 部 分 收敛 准 
则 的 表现 与 mCDM 框架 基本 一 致 。 

Be 3 中 呈现 的 是 数据 生成 模型 为 饱和 模型 , J = 
32 水 平 下 的 模拟 研究 结果 ,由 于 所 有 重复 中 没有 
极端 值 ,因此 表 中 没有 呈现 4。 列 。 另 外 , 通过 表 1 


及 表 2 中 的 结果 可 以 发 现 , 各 收敛 判断 方法 在 10% 
的 收敛 容 差 水 平 下 的 表现 明显 优 于 10“4 水 平 ， 因 
此 不 再 呈现 dp 1 类 方法 在 10 的 收敛 容 差 水 平 下 
的 全 部 结果 , 仪 保留 mcomp 方法 下 的 结果 用 于 比 
较 说 明 。 表 3 同样 显示 在 LL pg 指标 上 表现 最 好 的 
是 mcomp8。 也 就 是 说 ， 模 型 完全 正确 设 定 条 件 下 ， 
在 本 文 所 探讨 的 全 部 收敛 准则 中 ,mcomp8 表现 
最 好 。 

对 比 表 3 中 不 同样 本 量 条 件 下 各 个 收敛 准则 的 
表现 ， 可 以 发 现 : (1)N = 500 时 , mCDM 框架 下 的 大 
多 数 收敛 判断 方法 在 LL gg 指标 上 的 表现 优 于 
GDINA 框架 ; N = 1000 和 4000 时, GDINA 框架 下 各 
收敛 准则 的 表现 在 变 好 ， 且 当 收 傅 容 差 为 10* 时 
mCDM 和 GDINA 框架 下 各 收敛 准则 均 有 好 的 表 
现 。(2) 就 traean > Itna 指标 而 言 ， 随 着 样本 量 的 增 
大 ,这 两 个 指标 在 变 小 。 这 说 明 J= 32 时 ， 随 着 样 
本 量 的 增 大 ， 所 需要 的 迭代 次 数 在 变 少 。 
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表 2 饱和 CDM 生成 数据 , J= 16, V= 1000 及 4000 条 件 下 的 模拟 结果 

N 收敛 准则 LL gest LL nean LL max LL min LL eg timean Tttrcan tray Aout 
1000 Gdp6 457 —9929.201 —9801.836 —10105.797 49.742 1.057 291 1924 6 
Gdp8 487 —9929.201 —9801.836 —10105.797 49.742 1.660 508 6609 6 

Gll6 117 —9929.201 —9801.836 —10105.797 49.742 0.831 217 713 6 

Gll8 481 一 9929.201 —9801.836 —-10105.797 49.742 1.107 324 2512 6 
Gcomp6 457 —9929.201 —9801.836 —10105.797 49.742 1.066 295 1924 6 
Gcomp8 487 —9929.201 —9801.836 —10105.797 49.742 1.666 511 6609 6 

mdp6 460 —9929.201 —9801.836 —10105.797 49.742 0.468 288 1950 6 

mdp8 499 —9929.201 —9801.836 —10105.797 49.742 0.726 503 6628 6 

mll6 104 —9929.201 —9801.836 —10105.797 49.742 0.362 213 795 6 

mll8 494 一 9929.201 —9801.836 —-10105.797 49.742 0.489 323 2509 6 
mcomp6 461 —9929.201 —9801.836 —10105.797 49.742 0.471 291 1950 6 
mcomp8 500 —9929.201 —9801.836 —10105.797 49.742 0.728 507 6628 6 

4000 Gdp6 469 —39831.617 -—39539.020 —40187.183 102.360 2.588 223 321 0 
Gdp8 500 —39831.617 -—39539.020 —40187.183 102.360 3.840 354 506 0 

GIl6 200 —39831.617 -—39539.020 —40187.183 102.360 2.334 195 282 0 

Gll8 499 —39831.617 —39539.020 —40187.183 102.360 2.947 261 376 0 
Gcomp6 475 —39831.617 -—39539.020 —40187.183 102.360 2.596 224 322 0 
Gcomp8 500 —39831.617 —39539.020 —40187.183 102.360 3.825 356 511 0 

mdp6 463 —39831.617 —39539.020 —40187.183 102.360 1.612 209 312 0 

mdp8 500 —39831.617 —39539.020 —40187.183 102.360 2.376 341 490 0 

mll6 177 —39831.617 -—39539.020 —40187.183 102.360 1.443 182 257 0 

mll8 499 —39831.617 -—39539.020 —40187.183 102.360 1.774 247 352 0 
mcomp6 471 —39831.617 -—39539.020 —40187.183 102.360 1.619 211 312 0 
mcomp8 500 —39831.617 —39539.020 —40187.183 102.360 2.372 342 490 0 

表 3 饱和 CDM 生成 数据 ,= 32 条 件 下 的 模拟 结果 

N 收敛 准则 LL gest LL nean LL nax LL min LL gg timean Irinan JItrnax 
500 Gdp8 485 —9334.716 —9163.342 —9521.124 61.640 0.551 TI 311 
Gll8 484 —9334.716 —9163.342 —9521.124 61.640 0.452 53 328 
Gcomp8 485 —9334.716 —9163.342 —9521.124 61.640 0.552 77 328 

mdp8 500 —9334.716 —9163.342 —9521.124 61.640 0.235 77 619 

mll8 499 —9334.716 —9163.342 —9521.124 61.640 0.203 54 609 
mcomp6 492 —9334.716 —9163.342 —9521.124 61.640 0.205 52 320 
mcomp8 500 —9334.716 —9163.342 —9521.124 61.640 0.235 77 619 

1000 Gdp8 500 —18731.384 —18516.735 —19016.929 93.430 0.682 65 95 
Gll8 500 —18731.384 —18516.735 —19016.929 93.430 0.574 47 66 
Gcomp8 500 —18731.384 —18516.735 —19016.929 93.430 0.682 65 95 

mdp8 500 —18731.384 —18516.735 —19016.929 93.430 0.315 64 95 

mll8 500 —18731.384 —18516.735 —19016.929 93.430 0.266 46 66 
mcomp6 498 —18731.384 —18516.735 —19016.929 93.430 0.263 44 64 
mcomp8 500 —18731.384 —18516.735 —19016.929 93.430 0.315 64 95 
4000 Gdp8 500 —75137.975 一 74638.007 —75645.526 185.720 1.998 60 71 
Gll8 500 —75137.975 —74638.007 —75645.526 185.720 1.811 48 55 
Gcomp8 500 —75137.975 —74638.007 —75645.526 185.720 1.993 60 Zl 

mdp8 500 —75137.975 —74638.007 —75645.526 185.720 1.463 58 72 

mll8 500 =—75137.975 —74638.007 —75645.526 185.720 1.210 46 56 
mcomp6 489 =75137.975 —74638.007 —75645.526 185.720 1.108 39 50 
mcomp8 500 —75137.975 —74638.007 —75645.526 185.720 1.457 58 72 
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4.4.2 HCDM 生成 数据 时 各 收敛 准则 的 表现 

表 4 到 表 6 呈现 的 是 通过 HCDM (前 3 个 属性 
是 线性 层级 关系 ) 生 成 作答 反应 数据 但 使 用 饱和 
CDM 佑 计 模 型 参数 条 件 下 的 模拟 结果 。 

根据 表 4 中 的 结果 ,可 以 发 现在 所 有 收敛 准则 
rh, mCDM 框架 下 mcomp8 的 表现 是 最 好 的 ， 相 同 
收敛 容 差 下 mdp 的 表现 接近 mcomp。 根 据 LLps > 
LLmean 、LLmax > LL nin 指标 ， 可 以 发 现 mCDM 框 
架 下 各 收敛 准则 的 表现 远 优 于 GDINA 框架 。 就 收 
敛 容 差 而 言 , MCDM 框架 下 收敛 容 差 的 3 个 水 平 下 ， 
各 个 方法 的 LLpew o LLmean + LLmas > LL nin 等 指标 
表现 有 明显 差异 。 随 着 收敛 容 差 的 变 小 ,， 各 个 方法 
的 表现 也 在 变 好 ，10 习 下 各 个 方法 的 表现 是 最 住 
We BAR 1， 可 以 发 现 表 4 中 各 收敛 准则 在 收敛 
容 差 的 104 与 10 习 两 个 水 平 下 的 表现 的 差异 更 加 明 
显 , 就 近代 次 数 而 言 ,' MCDM 及 GDINA 下 表现 最 好 
的 comp8 的 最 大 迭代 次 数 均 大 于 10000 Ve, 这 说 明 
在 样本 量 较 小 的 条 件 下 (如 N= 500)， 如 果 将 迭代 次 


数 设置 的 过 小 (如 ,小 于 10000) 模 型 参数 估计 程序 
可 能 会 输出 不 收敛 的 错误 结论 。 由 表 4 中 的 it 指 
标 可 知 ,， 在 500 次 循环 中 Gcomp8 中 有 591 个 参数 
存在 极端 值 问 题 , MCDM 框架 下 的 极端 值 数量 为 
483。 这 说 明 , 尽管 MCDM 框架 能 有 效 减少 极端 值 
数量 , 但 是 与 表 1 中 的 极端 值 数量 进行 对 比 可 以 发 
现 边 界 值 问题 对 于 2 种 框架 下 的 模型 参数 均 产 生 较 
为 负面 的 影响 。 

综合 表 1 与 表 4, 在 模型 中 存在 边界 值 条 件 下 
同样 发 现 : (dp 与 ip 方法 的 表现 具有 较 高 的 一 致 
性 , H dp 的 表现 与 ip 相当 或 优 于 ip; (2) 收 敛 容 差 
等 于 10 “时 各 收敛 判断 方法 的 表现 , 均 没 有 优 于 
10“ 或 是 108 这 两 个 收 和 敛 容 差 下 的 表现 。 因 此 , 接 
下 来 不 再 呈现 模型 中 存在 边界 值 条 件 下 ip 方法 及 
收敛 容 差 等 于 10“ 时 各 收敛 准则 的 结果 。 

由 表 5 中 N= 1000 及 4000 水 平 下 的 模拟 结 
Ay A, Æ LLpes 指标 上 表现 最 佳 仍然 是 mcomp8， 
其 次 是 mdp8。 就 收敛 容 差 而 言 ， 各 个 收敛 准则 在 


LA 


表 4 HCDM 生成 数据 , J= 16, V= 500 条 件 下 的 模拟 结果 


收敛 准则 LL gest LL mean LL max LL min LLa timean Tttnean Tenax Aout 
Gdp4 1 —4775.050 —4640.212 —4885.902 39.080 0.560 184 870 585 
Gdp6 22 —4775.034 —4640.210 —4885.901 39.076 1.276 500 5131 589 
Gdp8 27 —4775.033 —4640.210 —4885.901 39.075 2.175 937 23818 591 
Gip4 1 —4775.051 —4640.212 —4885.904 39.081 0.543 176 795 585 
Gip6 21 —4775.034 —4640.210 —4885.901 39.075 1.231 485 5141 589 
Gip8 27 —4775.033 —4640.210 —4885.901 39.075 2.110 922 23818 591 
Gll4 0 —4775.048 —4640.214 —4885.902 39.080 0.516 161 714 584 
Gll6 12 —4775.036 —4640.210 —4885.901 39.074 0.833 308 1461 588 
Gll8 25 —4775.033 —4640.210 —4885.901 39.075 1.284 535 6486 589 
Gcomp4 1 —4775.048 —4640.212 —4885.902 39.080 0.574 189 870 588 
Gcomp6 22 —4775.034 —4640.210 —4885.901 39.076 1.279 501 5141 589 
Gcomp8 27 —4775.033 —4640.210 —4885.901 39.075 2.179 939 23818 591 
mdp4 4 —4774.975 —4639.179 —4885.899 39.103 0.221 185 739 486 
mdp6 350 —4774.968 —4639.178 —4885.898 39.100 0.403 475 4339 484 
mdp8 469 —4774.964 —4639.178 —4885.898 39.101 0.686 931 14029 483 
mip4 4 —4774.975 —4639.179 —4885.901 39.103 0.214 179 735 490 
mip6 343 —4774.968 —4639.178 —4885.898 39.100 0.387 464 4303 484 
mip8 469 —4774.964 —4639.178 —4885.898 39.101 0.647 916 14029 483 
mll4 0 —4774.980 —4639.184 —4885.898 39.102 0.201 161 910 473 
mll6 72 —4774.969 —4639.178 —4885.898 39.100 0.292 312 1471 482 
mll8 458 —4774.965 —4639.178 —4885.898 39.101 0.431 558 5066 486 
mcomp4 4 —4774.974 —4639.179 —4885.898 39.103 0.223 191 910 481 
mcomp6 351 —4774.968 —4639.178 —4885.898 39.100 0.404 479 4339 484 
mcomp8 473 —4774.964 —4639.178 —4885.898 39.101 0.684 936 14029 483 
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表 5 HCDM 生成 数据 ,了 = 16, N= 1000 及 4000 条 件 下 的 模拟 结果 

N 收敛 准则 LL gece LL nean LL max LL min LL timean Tttcan Tmax Rout 
1000 Gdp6 9 —9577.383 —9408.520 —9787.279 56.515 1.547 450 5095 491 
Gdp8 12 —9577.379 —9408.520 —9787.279 56.515 2.667 843 17947 494 
Gll6 3 —9577.389 —9408.520 —9787.279 56.510 1.054 285 1685 491 
Gll8 11 —9577.385 —9408.520 —9787.279 56.509 1.558 476 5786 495 
Gcomp6 9 —9577.383 —9408.520 —9787.279 56.515 1.546 451 5095 491 
Gcomp8 12 —9577.379 —9408.520 —9787.279 56.515 2.672 844 17947 494 
mdp6 366 —9577.314 —9408.518 —9787.279 56.508 0.635 467 5512 416 
mdp8 484 —9577.313 —9408.518 —9787.279 56.508 1.171 969 18411 411 
mll6 78 —9577.319 —9408.518 —9787.279 56.503 0.410 285 1686 409 
mll8 470 —9577.319 —9408.518 —9787.279 56.503 0.647 510 5843 415 
mcomp6 370 —9577.314 —9408.518 —9787.279 56.508 0.636 469 5512 416 
mcomp8 488 —9577.313 —9408.518 —9787.279 56.508 1.173 972 18411 411 
4000 Gdp6 14 —38423.227 —38076.036 —38778.783 117.696 6.011 604 3920 424 
Gdp8 23 —38423.225 —38076.036 —38778.783 117.696 10.439 1132 12509 427 
Gll6 > —38423.228 —38076.036 —38778.783 117.696 3.937 375 2066 425 
Gll8 22 —38423.226 —38076.036 —38778.783 117.697 6.492 698 4557 425 
Gcomp6 14 —38423.227 —38076.036 —38778.783 117.696 6.082 612 3920 425 
Gcomp8 23 —38423.225 —38076.036 —38778.783 117.696 10.473 1141 12509 427 
mdp6 276 —38423.146 —38076.034 —38778.782 117.698 3.437 595 3957 356 
mdp8 473 —38423.145 —38076.034 —38778.782 117.698 6.393 1233 12714 355 
mll6 28 —38423.146 —38076.034 —38778.782 117.697 2.253 374 2076 357 
mll8 460 —38423.145 —38076.034 —38778.782 117.698 3.831 733 4569 355 
mcomp6 276 —38423.146 —38076.034 —38778.782 117.698 3.472 602 3957 356 
mcomp8 478 —38423.145 —38076.034 —38778.782 117.698 6.424 1241 12714 355 


10 与 10 习 水 平 下 的 LLpow FILL nean 指标 上 表现 出 
了 明显 的 差异 ,收敛 容 差 为 10 了 时 这 两 个 指标 更 
好 。 模型 参数 估计 框架 对 各 收敛 准则 的 表现 产生 了 
明显 影响 ,整体 而 言 , 在 本 研究 使 用 的 所 有 指标 上 ， 
mCDM 框架 下 各 收敛 准则 的 表现 优 于 GDINA HE 
架 。 样 本 量 对 J= 16 且 模 型 中 存在 边界 值 时 的 各 收 
SME MUZE 4 指标 上 的 表现 同样 产生 了 影响 , 综合 
表 4 与 表 5, 可 以 发 现 随 着 样本 量 的 增加 各 收敛 准 
则 对 应 的 Aou 的 数量 在 下 降 。 就 Itr,。 而 言 , 模型 中 
存在 边界 值 时 , mCDM 和 GDINA 框架 下 表现 较 好 
的 模型 收敛 准则 中 需要 的 迭代 次 数 都 非常 大 ,例如 ， 
N = 4000 条 件 下 mcomp8 需要 的 最 大 欠 代 次 数 为 
12714, Gcomp8 需要 的 迭代 次 数 是 12509， 这 远 超 
CDM 或 GDINA 软件 包 中 默认 的 迭代 次 数 。 

通过 表 4 与 表 5 中 的 结果 可 知 ,模型 估计 框架 
为 mICDM、 收 敛 容 差 为 10 习 时 各 收敛 准则 的 表现 
更 好 。 因此, R 6 中 不 再 呈现 GDINA HEE 10% 
10 习 收敛 容 差 下 完整 的 模拟 结果 , (MLL Gcomp8 


及 mcomp6 用 于 结果 比较 。 表 6 中 呈现 的 是 模型 
中 存在 边界 值 且 J = 32 时 的 模拟 结果 。 可 以 发 现 
在 N=500、1000 及 4000 这 3 个 样本 量 水 平 下 表现 
最 好 的 收敛 准则 都 是 mcomp8, mdp8 与 mll8 的 表现 
相对 较 好 。 就 模型 参数 估计 框架 而 言 : (1) mCDM 
框架 下 各 收敛 准则 在 LL pest v LLmean 、tmean > Aout 等 
指标 上 的 表现 优 于 相同 收敛 准则 在 GDINA 框架 下 
的 表现 ; (2) MCDM 框架 下 收敛 容 差 的 值 对 各 收敛 
方法 的 表现 有 明显 影响 ,收敛 容 差 的 值 越 小 ,同一 
收敛 判断 方法 在 LLpes > LL mean 指标 上 的 表现 越 
好 。 样 本 量 对 于 各 收敛 准则 对 应 的 Au 指标 产生 了 
明显 的 影响 ,同一 种 收敛 准则 下 样本 量 越 大 4 的 
值 越 小 。 对 比 相 同 收敛 准则 在 J= 16 K 4 与 表 5) 
K J=32 IKF F ÉS Itr ean 和 TItr 指标 上 的 表现 ， 可 
以 发 现 随 着 项 目 量 增 大 Itnen 和 trma 在 下 降 ; 然 
而 需要 特别 指出 的 是 ， 即 使 在 J = 32 条 件 下 
Gcomp8 和 mcomp8 收敛 准则 中 的 Ir 仍 可 能 
于 3000。 
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#6 HCDM 生成 数据 ,= 32 条 件 下 的 模拟 结果 
N 收敛 准则 LL pest LL mean LL max LL min LL. timean JItraean JItrnax Rout 
500 Gcomp8 83 -8944.542  -8746.172. -9101.048 63.686 0.823 143 4521 1072 
mdp8 416 -8944.529 -8746.349 -9100.836 63.714 0.309 162 3678 936 
mll8 417 —8944.529 —8746.349 —9100.836 63.714 0.241 109 1701 916 
mcomp6 390 = -8944.531 -8746.349 -9100.836 63.713 0.240 101 1575 921 
mcomp8 417 -8944.529 -8746.349 -9100.836 63.714 0.310 163 3678 936 
1000 Gcomp8 44 —17941.473 —17692.040 —18203.752 96.770 1.375 179 6530 998 
mdp8 456 —17941.322 -17692.038  —18205.384 96.780 0.607 218 12877 810 
mll8 452 —17941.322 -17692.038 —18205.384 96.780 0.411 124 1840 805 
mcomp6 408 —17941.322 -17692.038 —18205.384 96.780 0.420 115 3035 809 
mcomp8 456 —17941.322 —17692.038 —18205.384 96.780 0.610 219 12877 810 
4000 Gcomp8 51 —71973.595 —71443.652 —72679.347 198.161 7.854 278 7908 913 
mdp8 443 -71973.490 —71443.649 —72679.344 198.184 5.795 299 6037 714 
mll8 443 —71973.494 —71443.649 —72679.344 198.185 3.729 191 1799 706 
mcomp6 373 —71973.496 -71443.649 —72679.344 198.184 3.470 164 1833 717 
mcomp8 449 -71973.490 -71443.649  -72679.344 198.184 5.896 303 6037 714 
5 实证 数据 分 析 参数 估计 框架 下 ,5 种 收敛 判断 方法 (tp ip. 1, rl, 


数据 来 源 于 Yuan 等 人 (2022) 关 于 小 学 数学 分 
数 运算 的 认 知 诊断 研究 。 这 个 数据 集 包 含 817 名 被 
试 对 56 个 项 目的 作答 。Yuan 等 人 (2022) 在 文献 分 
析 的 基础 上 ,根据 专家 建议 、 被 试 访谈 及 口语 报告 
法 等 , 定义 了 5 个 认 知 属性 , 分 别 是 : 基本 运算 
(a), 约 分 (w2 )、 通 分 (o3)、 带 分 数 拆 分 (4 )、 借 
位 (as)。 甚 研究 提出 分 数 运算 认 知 过 程 的 可 能 路 径 
是 :掌握 w EEE a, a, a 的 前 提 ; 由 于 属性 a, 
仅 涉 及 将 整数 与 分 数 部 分 拆 开 , 不 需要 预先 掌握 
a; 图 4 中 呈现 了 认 知 属性 层级 关系 图 。Yuan 等 人 
(2022) 使 用 似 然 比 统计 量 比较 了 1logit 连 接 函 数 下 饱 
和 CDM 与 HCDM 的 对 数 似 然 函 数值 的 差异 , 初步 
证 实 了 小 学 数学 分 数 运算 数据 集中 存在 图 4 中 所 呈 
现 的 层级 关系 。 


图 4 Yuan 等 人 (2022) 定 义 的 小 学 数学 分 数 运算 认 知 属 
性 层级 关系 


本 文 以 小 学 数学 分 数 运算 数据 集 为 例 , 探讨 当 
CDM 模型 中 存在 边界 值 时 , GDINA 及 mCDM 模型 


comp), 3 种 收敛 容 差 (10“、10“、10)， 所 组 成 的 
30 种 收敛 判断 准则 的 表现 。 表 7 中 呈现 了 这 30 种 
收 钱 准则 对 应 的 对 数 似 然 函 数值 ( 简 记 为 ,， LL)， 以 
秒 为 单位 的 模型 参数 估计 时 间 (D， 和 迭代 次 数 以 及 
Xut; 为 便于 结果 解释 , 将 LL 值 保留 到 了 小 数 点 后 
四 位 。 
根据 模型 参数 估计 的 极 大 似 然 理论 ,收敛 判断 
准则 对 应 的 LL 越 大 ,说 明 这 个 准则 的 表现 越 好 ， 
模型 参数 点 估计 值 的 可 靠 性 越 高 。 

可 以 发 现 : (1) 对 于 LL 值 影响 最 大 的 是 模型 参 
数 估计 框架 ， 本 研究 中 新 开发 的 mCDM 框架 下 各 
收敛 准则 对 应 的 LL 值 远 大 于 GDINA 框 架 下 各 收敛 
准则 对 应 的 LL 值 。(2) 在 所 有 收敛 准则 中 表现 最 好 
的 是 mdp8 与 mcomp8, 在 这 两 种 收敛 准则 中 不 仅 
似 然 函 数 是 最 大 的 ,而且 项 目 参 数 中 没有 极端 值 。 
(3) 就 3 种 收敛 容 差 而 言 , 不 论 是 在 mCDM 还 是 
GDINA 框架 下 ，10” 的 表现 都 是 最 差 的 ，10 习 的 表 
现 是 最 佳 的 ; 尽管 在 一 些 收敛 准则 中 10“ 的 表现 与 
10 飞 类似 , 但 是 前 者 并 不 具有 普遍 适用 性 。 以 上 3 
个 发 现 与 模拟 研究 中 的 结论 具有 高 度 的 一 致 性 。 
6 讨论 与 展望 

本 文通 过 理论 分 析 及 模拟 研究 证 实 , 心理 计量 
模型 的 点 估计 值 在 一 些 情景 中 会 存在 可 靠 性 问题 ， 
且 新 开发 的 模型 参数 估计 框架 及 收敛 准则 能 够 提 
高 模型 参数 估计 值 的 可 靠 性 。 
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表 7 实证 数据 分 析 结 果 


GDINA 框架 mCDM 框架 
收敛 准则 LL t Itr Aout Cov LL t Itr Aout 
Gdp4 —14307.9718 1.040 133 4 mdp4 —14248.5465 0.470 64 1 
Gdp6 —14307.9717 1.328 190 4 mdp6 —14248.5463 0.718 111 1 
Gdp8 —14307.9717 1.686 247 4 mdp8 —14248.5463 0.975 158 0 
Gip4 —14307.9719 0.914 123 4 mip4 —14248.5469 0.423 58 0 
Gip6 —14307.9717 1.299 181 4 mip6 —14248.5463 0.670 105 1 
Gip8 一 14307.9717 1.631 238 4 mip8 —14248.5463 0.925 152 1 
Gll4 一 14307.9720 0.891 119 4 mll4 —14248.5465 0.449 63 3 
Gll6 一 14307.9717 1.128 148 4 mll6 —14248.5463 0.570 87 1 
GII8 —14307.9717 1.245 177 4 mll8 —14248.5463 0.698 110 2 
Grl4 —14351.6261 0.264 20 4 mrl4 —14257.7213 0.168 13 0 
Grl6 —14308.0450 0.448 47 4 mrl6 一 14248.6033 0.289 35 1 
Grl8 —14307.9725 0.856 111 4 mrl8 —14248.5469 0.415 58 0 
Gcomp4 —14307.9718 1.040 133 4 mcomp4 —14248.5465 0.470 64 1 
Gcomp6 —14307.9717 1.328 190 4 mcomp6 —14248.5463 0.718 111 1 
Gcomp8 —14307.9717 1.686 247 4 mcomp8 —14248.5463 0.975 158 0 


6.1 讨论 

首先 ， 通 过 预 研究 作者 认为 最 大 迭代 次 数 设置 
过 少 可 能 会 导致 模型 参数 不 收敛 的 问题 (如 ，3000 
或 以 下 , Ul GDINA 及 CDM 软 件 包 )， 因 此 本 研究 将 
最 大 迭代 次 数 设置 为 50000。 模 拟 研 究 发 现 ， 本 文 
所 有 实验 条 件 组 合 下 mCDM 和 GDINA 这 两 种 模型 
参数 佑 计 框 架 均 收敛 。 模拟 研究 显示 在 一 些 特定 条 
件 下 ( 见 表 1), mCDM 和 GDINA 的 最 大 迭代 次 数 均 
超过 了 30000 VR, 这 也 就 意味 着 如 果 将 最 大 收敛 次 
数 设置 为 3000 那么 就 会 出 现 模型 参数 不 收敛 的 问 
题 。 因 此 ,本 文 认为 增 大 模型 参数 估计 程序 的 最 大 
和 迭代 次 数 有 助 于 解决 模型 参数 不 收敛 问题 。 

其 次 , 针对 CDM 中 可 能 存在 的 边界 值 以 及 项 
目 参 数 存在 极端 值 问 题 ， 本文 开 发 了 新 的 CDM 模 
型 参数 估计 框架 mCDM。 通 过 对 比 mCDM 和 
GDINA 这 两 种 模型 参数 估计 框架 在 模拟 研究 及 实 
证 数据 分 析 中 的 表现 ， 发现 MCDM 框架 的 表现 优 
于 或 至 少 与 GDINA 框架 的 表现 相当 ; H mCDM 框 
架 有 效 减 少 了 项 目 参数 极端 值 数量 。 因 此 ,本 文 认 
为 在 估计 CDM 模型 参数 时 , mCDM 可 能 是 一 个 更 
好 的 选择 。 导 致 CDM 中 存在 边界 值 的 一 个 原因 是 
属性 间 存 在 层级 关系 , 使 得 饱和 CDM 中 的 一 些 参 
数 近似 等 于 0。 研 究 者 以 饱和 CDM 为 基础 开发 了 
一 些 属性 层级 关系 探索 或 验证 的 方法 (Gu & Xu 
2019; Liu et al., 2022; Templin & Bradshaw, 2014). 
我 们 建议 研究 者 进一步 在 mCDM 框架 下 使 用 已 有 


方法 或 者 是 开发 新 方法 对 属性 层级 关系 进行 研究 。 
当 有 和 较为 充分 的 证 据 证 明 层级 关系 存在 时 ,在 
mCDM 框架 下 使 用 HCDM 分 析 数 据 ， 可 能 会 提高 
模型 参数 点 估计 值 的 可 靠 性 。 

第 三 ,本 文 新 提出 模型 参数 收敛 综合 判断 法 
comp, 并 在 2 种 参数 估计 框架 (mCDM 和 GDINA)、 
3 种 收敛 容 差 (10“、10“、10) 下 比较 了 dp ip, 
Hl. rl 及 comp 等 方法 所 组 成 的 30 种 收敛 准则 的 表 
现 。 就 本 研究 所 探讨 的 3 种 收敛 容 差 而 言 ，10 习 的 
表现 是 最 好 的 ，10™* 的 表现 则 不 及 10* 和 10; 收 
敛 容 差 的 值 越 小 收银 准则 的 表现 越 好 ,尤其 是 在 
mCDM 框架 下 。 Wè dp. ip, ll, rl 及 comp 这 5 FH 
收敛 判断 方法 而 言 ， comp 的 表现 最 好 , rl 方法 的 表 
现 最 差 ; 在 mCDM 框架 下 表现 最 为 明显 。 因 此 , 本 
文 认为 ,估计 模型 参数 时 ，mCDM 框架 下 收敛 容 差 
为 10 习 的 comp 方法 的 可 靠 性 较 高 。 

6.2 ”展望 

本 文 以 同一 连接 下 的 饱和 G-DINA 模型 为 例 ， 
探讨 了 mCDM 和 GDINA 框架 下 目前 已 有 的 及 本 研 
究 新 开发 的 各 收敛 准则 在 CDM 模型 参数 估计 中 的 
表现 。 尽 管 本 研究 初步 解决 了 在 CDM 模型 参数 佑 
计时 如 何 选择 恰当 收敛 准则 的 问题 ,但 是 作者 认为 
有 以 下 几 个 问题 需要 进一步 探索 。 

第 一 个 是 关于 1 方法 所 适用 的 收敛 容 差 问题 。 
本 文 发 现 ， 相 对 于 其 他 准则 而 言 ,dl io~, 10° , 
10 习 这 3 种 收敛 容 差 值 时 在 LLp。w > LL mean 指标 上 
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的 表现 均 较 差 。 通 过 + MTD SR abs{ [2y P+ |p) — 
L(y ly) LOP IDY, 结合 11 方法 可 以 分 析出 这 
个 问题 出 现 的 原因 。 以 表 1 中 呈现 的 模拟 结果 为 例 ， 
可 以 发 现在 这 个 实验 条 件 组 合 下 , 11 方法 在 MCDM 
框架 下 且 收 敛 准 则 值 等 于 10 习 时 的 表现 ， 相 对 于 其 
他 框架 及 收敛 容 差 较 优 。 根据 mll8 的 定义 ， 此 时 
abs{—2[ (yp |p) — ey" py} < 108 s; 再 根据 表 中 
ÉJ LL nean 值 -4948.008， 可 近似 获得 此 时 mll 的 值 ， 
并 计算 mrl， 
mrl = abs{[ ey" ly) — ep Ip] / 

e(yP* ly} < 1078 / (2x 4948.008) (2) 
这 也 就 意味 着 ， 如 果 mrl 想 要 达到 与 mll8 相近 的 效 
R, ml 方法 的 收敛 容 差 应 该 近似 等 于 10 AE, 
作者 建议 后 续 人 研究 者 可 以 沿 着 这 个 线索 继续 探索 1 
方法 的 表现 。 

第 二 是 关于 mCDM 框架 及 其 应 用 的 问题 。 本 
人 研究 开发 mCDM 框架 的 主要 目的 在 于 提供 一 个 更 
加 合理 的 CDM 模型 参数 估计 框架 ， 尽 量 减少 模型 
参数 不 收敛 、 边 界 值 问 题 及 项 目 参数 极端 值 对 
CDM 模型 参数 收敛 准则 表现 的 影响 。 特 别 说 明 的 
是 模拟 实验 中 将 最 大 迭代 次 数 设 置 为 50000 时 , 两 
种 参数 估计 框架 下 的 所 有 循环 中 的 参数 估计 都 收 
敛 了 ,因此 在 本 研究 中 mCDM 框架 仅 在 边界 值 问 
题 及 项 目 参数 存在 极端 值 时 起 作用 。 模 型 中 存在 边 
界 值 时 ,尽管 mCDM 框架 下 的 项 目 极端 值 数 量 少 
于 同 条 件 下 GDINA 框架 所 对 应 的 数量 , 但 即使 是 
TE N = 4000 条 件 下 , mCDM 框架 下 出 现 极端 值 的 频 
率 仍然 较 高 。 因此， 本 研究 认为 有 必要 以 mCDM HE 
架 为 基础 ， 继 续 对 模型 参数 不 收 化 、 边 界 值 问题 及 
项 目 参 数 极端 值 等 问题 展开 探索 。 

第 三 , 不 同 连接 函数 下 各 种 收敛 准则 的 表现 有 
待 进一步 探索 。 本 文 以 同一 连接 下 的 饱和 G-DINA 
模型 为 例 ， 探讨 了 不 同 收敛 准则 的 表现 。 但 CDM 
中 还 有 两 种 得 到 广泛 应 用 的 连接 : logit 连接 以 及 log 
连接 (de la Torre, 2009, 2011; Templin & Bradshaw, 
2014). 这 3 种 连接 函数 的 主要 区 别 之 一 是 , 项 目 参 
数 与 项 目 正确 作答 概率 之 间 关 系 的 表达 不 同 。 鉴 于 
dp WATERS BURL FIL ip, 本 研究 认为 
后 续 人 研究 可 以 对 不 同 连 接 函 数 下 各 个 收敛 准则 的 
表现 展开 进一步 探索 。 
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Abstract 


Cognitive diagnostic models (CDMs) are psychometric models that have received increasing attention 


within fields such as psychology, education, sociology, and biology. It has been argued that an inappropriate 


convergence criterion for a maximum likelihood estimation using the expectation maximization (MLE-EM) 
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algorithm could result in unpredictable and inaccurate model parameter estimates. Thus, inappropriate 
convergence criteria may yield unstable and misleading conclusions from the fitted CDMs. Although several 
convergence criteria have been developed, it remains an unexplored question, how to specify the appropriate 
convergence criterion for fitted CDMs. 

A comprehensive method for assessing convergence is proposed in this study. To minimize the influence of 
the model parameter estimation framework, a new framework adopting the multiple starting values strategy 
(mCDM) is introduced. To examine the performance of the convergence criterion for MLE-EM in CDMs, a 
simulation study under various conditions was conducted. Five convergence assessment methods were examined: 
the maximum absolute change in model parameters, the maximum absolute change in item endorsement 
probabilities and structural parameters, the absolute change in log-likelihood, the relative log-likelihood, and the 
comprehensive method. The data generating models were the saturated CDM and the hierarchical CDM. The 
number of items was set to J = 16 and 32. Three levels of sample sizes were considered: 500, 1000, and 4000. 
The three convergence tolerance value conditions were 10%, 10%, and 10™*. The simulated response data were fitted 
by the saturated CDM using the mCDM and the R package GDINA. The maximum number of iterations was set 
to 50000. 

The simulation results suggest the following. 

(1) The saturated CDM converged under all conditions. However, the actual number of iterations exceeded 
30000 under some conditions, implying that when the predefined maximum iteration number is less than 30000, 
the MLE-EM algorithm might inadvertently stop. 

(2) The model parameter estimation framework affected the performance of the convergence criteria. The 
performance of the convergence criteria under the mCDM framework was comparable or superior to that of the 
GDINA framework. 

(3) Regarding the convergence tolerance values considered in this study, 10° consistently had the best 
performance in providing the maximum value of the log-likelihood and 10* had the worst performance. Compared to 
all other convergence assessment methods, the comprehensive method in general had the best performance, 
especially under the mCDM framework. The performance of the maximum absolute change in model parameters 
was similar to the comprehensive method, but this good performance was not consistent. On the contrary, the 
relative log-likelihood had the worst performance under the mCDM and GDINA frameworks. 

The simulation results showed that the most appropriate convergence criterion for MLE-EM in CDMs was 
the comprehensive method with tolerance 10 under the mCDM framework. The results from the real data analysis 
also demonstrated that the proposed comprehensive method and mCDM framework had good performance. 
Keywords model parameter estimation, point estimation, convergence criterion, cognitive diagnostic model 


